home *** CD-ROM | disk | FTP | other *** search
/ Language/OS - Multiplatform Resource Library / LANGUAGE OS.iso / icon / contrib / pcw.lha / chap4.let < prev    next >
Encoding:
Text File  |  1991-11-20  |  20.7 KB  |  458 lines

  1. .KF:chap4.toc
  2. .KW:59
  3. .N:93
  4. .XT:2
  5. .XB:0
  6. .X:10
  7. .L:59
  8. .M:1
  9. L---+----1----+----2----+----3----+----4----+----5T---+---R6----+----7----+----8
  10. .H:
  11. .H:
  12. .H:
  13. .F:
  14. .F:...$$$...
  15. .M:1
  16.  
  17.  
  18.  
  19.  
  20.                          CHAPTER 4
  21.  
  22.  
  23.            MACHINE TRANSLATION OF MATTHEW 26:1-35
  24. .K:4.  MACHINE TRANSLATION OF MATTHEW 26:1-35
  25.  
  26.  
  27.  
  28. .M:2
  29.        This chapter will discuss the implementation and 
  30. theoretical basis of the machine translation program 
  31. developed in conjunction with this thesis.  The program 
  32. accepts as its source a derivative of the text found in the 
  33. Semantic Structure Analysis (SSA) displays of the previous 
  34. chapter.  This choice of source text is explained in the 
  35. following section.  A sample of the text is included in 
  36. Appendix C.  The program also references a specialized 
  37. lexicon referred to in this thesis as a semanticon.  A 
  38. portion of the semanticon is included in Appendix D.  A 
  39. sample of the program's translated output (in Spanish) is 
  40. included in Appendix E.  A diskette containing the trans
  41. lation program and all the files necessary to run it is 
  42. bound into the back of this thesis.  The complete trans
  43. lation of Matthew 26:1-35 is included on the diskette.  The 
  44. contents of the diskette are outlined in Appendix F.  A 
  45. listing of the program, which is written in the ICON 
  46. programming language, is contained in Appendix G. 
  47. .H:
  48. .H:                                                            $$$
  49. .H:
  50. .F:
  51. .F:
  52.  
  53.  
  54. 94
  55.           Theoretical Basis Of The Implementation
  56. .K:       Theoretical Basis Of The Implementation
  57.  
  58.        A fundamental principle underlying the design of the 
  59. machine translation program is the notion that it is 
  60. reasonable to put a good deal of manual analysis into a 
  61. text that will be translated into a multitude of target 
  62. languages.  An example of such a text is the Bible, which 
  63. still has not been translated into some 3500 minority 
  64. languages.  Some other suitable candidates for this type of 
  65. treatment are the legislation of the European Community, 
  66. and owner's manuals for various products.  A corollary to 
  67. this first principle is the notion that any machine trans
  68. lation program will be more successful if the grammar of 
  69. the source text is as limited as possible.  In keeping with 
  70. this corollary the syntax of the program's input text has 
  71. been greatly simplified as set forth in the previous 
  72. chapter about Semantic Structure Analysis. 
  73.  
  74.        A second fundamental principle is that the program 
  75. attempts to translate meaning rather than just words.  This 
  76. is because word based machine translations often produce 
  77. wrong meaning due to ambiguities in the source text.  
  78. Another problem with word based translation programs is 
  79. that they become large, complex, and slow because they must 
  80. employ various techniques to try to minimize the errors 
  81. which spring from ambiguities in the source text.  One of 
  82. 95
  83. the greatest problems with word-based translations is that 
  84. they assume that surface structures between languages are 
  85. identical.  This ignores the fact that every language has 
  86. its own devices for skewing the basic relations between 
  87. concepts and propositions in producing surface structures, 
  88. and the rules for such skewing are very context-sensitive. 
  89. For these reasons, the program presented in this thesis 
  90. attempts to translate meaning, and to that end, the 
  91. analysis of the source text is based on the theory ex
  92. pounded in The Semantic Structure of Written Communication 
  93. (SSWC) by Beekman, Callow, & Kopesec (1981).  
  94.  
  95.        According to the SSWC, concepts/meanings come in 
  96. four classes:  things,  events,  attributes,  and  
  97. relations (1981:49).  In their simplest forms things are 
  98. represented by nouns, events by verbs, attributes by 
  99. adjectives and adverbs, and relations by function words 
  100. like conjunctions, sentence adverbs, and prepositions. 
  101.  
  102.        A formidable problem for the translator presents 
  103. itself when concepts are not represented in their simplest 
  104. forms; this is called lexical skewing.  For instance, in 
  105. the sentence, 'John gave Mary some help' the word 'help' is 
  106. really an event.  A simpler (i.e. unskewed) way to express 
  107. the same meaning would be, 'John helped Mary.' 
  108.  
  109. 96
  110.        A linguistic universal could be claimed here.  That 
  111. is, all languages allow unskewed forms of expression, but 
  112. no language allows all possible skewed forms of a concept.  
  113. While it is beyond the scope of this thesis to attempt to 
  114. prove the validity of this linguistic universal, there is 
  115. ample anecdotal evidence to support it.  For instance, in 
  116. Spanish it is impossible to use the word for 'grape' as an 
  117. adjective.  So in Spanish one would never talk about 'grape 
  118. wine', but one could express the concept in unskewed form 
  119. as vino de uvas 'wine from grapes'. 
  120.  
  121.        Another assumption underlying the implementation of 
  122. this program is that the analysis of the source text will 
  123. be  done  primarily  by  native  speakers  of  the  source 
  124. language.  Likewise, post-editing of the translated text 
  125. will be performed primarily by native speakers of the 
  126. target language.  The role of any bilingual person involved 
  127. in the translation process could be limited to that of 
  128. consultant and translation checker.  This approach has the 
  129. obvious benefit of reducing the need for scarce, expensive 
  130. bilingual translation specialists. 
  131.  
  132.        The text that was translated as a part of this 
  133. thesis represents something of a special case in that the 
  134. analysis of the original text was, for obvious reasons, not 
  135. done by native speakers of Koine Greek.  Nevertheless, it 
  136. 97
  137. could certainly be argued that the process of analyzing the 
  138. original text would have been greatly simplified if such 
  139. speakers of Koine Greek were still available.  It should 
  140. also be pointed out that the translation program does not 
  141. accept the original text as its source text, but rather an 
  142. English source text which is derived from the semantic 
  143. structure analysis of the original Greek text.  The current 
  144. lack of native speakers of Koine Greek is precisely what 
  145. motivates the use of an English rather than a Greek source 
  146. text as input to the program. 
  147.  
  148.        Finally it is assumed that in its first draft a 
  149. translation does not need to be perfect to be understand
  150. able.  This is born out by the experience of anyone who has 
  151. found it necessary to communicate with a non-native speaker 
  152. of his or her own language.  Even though this speaker may 
  153. have less than a perfect control of the language, communi
  154. cation is often successful.  Native speakers of a language 
  155. seem to have a high degree of tolerance for imperfect 
  156. grammar.  The advantage of taking this position is that 
  157. where imperfections in the grammar of the translated text 
  158. are considered minor, they can simply be left to the post-
  159. editor to correct. 
  160.  
  161.  
  162. 98
  163.                    Implementation Details
  164. .K:       Implementation Details
  165.  
  166.        In the analysis of the English source text included 
  167. with the program, an attempt was made to eliminate lexical 
  168. skewing to the fullest extent possible.  It should be noted 
  169. that  this  is  not  entirely  necessary  when  translating 
  170. between closely related languages, but it becomes critical 
  171. when translating into minority languages which may lack 
  172. abstract nouns for events like 'love' or 'forgiveness'. 
  173.  
  174.        As noted above, an attempt was also made to utilize 
  175. a very limited syntax in the analysis of the source text.  
  176. Ideally each sentence of the source text should consist of 
  177. a subject, verb, objects, and possibly a relative clause.  
  178. Passive voice was not permitted because it does not exist 
  179. in all languages, nor does it always serve the same 
  180. function.  
  181.  
  182.       In an attempt to represent all concepts using words 
  183. employed in their primary senses, figures of speech such 
  184. as metaphors, idioms, euphemisms, and so on were spelled 
  185. out.  In many languages these would cause much confusion if 
  186. translated literally.  (In fact, figures of speech are 
  187. simply a variation on the theme of lexical skewing.)  
  188. Finally, conjunctions and sentence adverbs were used in a 
  189. stylized manner (i.e. they always mean the same thing).  
  190.  
  191. 99
  192.        To facilitate translation of meanings rather than 
  193. words, a system utilizing connecting underscores and 
  194. subscripting digits was employed in the preparation of the 
  195. source text.  For instance, 'chief_priests1' is treated as 
  196. a single concept, and thus contains a connecting under
  197. score.  Such underscores represent the native speaker's 
  198. judgement of how the source language words should be 
  199. grouped into concepts.  The subscripting digit '1' is 
  200. added to distinguish this concept from any others which 
  201. might possibly be renderable by the same English words.  
  202. The subscripting digits used are somewhat arbitrary, but in 
  203. the case of verbs the digits 1 through 3 were used for 
  204. first, second, and third person singular verbs, and the 
  205. digits 4 through 6 were used for the plural forms.  Thus 
  206. 'know6' would mean 'they know'. 
  207. .H:
  208. .H:                                                           $$$
  209. .H:
  210. .F:
  211. .F:
  212.  
  213.        Forms such as 'chief_priests1' and 'know6' are 
  214. considered to be arbitrary symbols for units of meaning.  
  215. They could just as easily have been rendered as 'abc1' and 
  216. 'xyz6', but this would have resulted in an input text that 
  217. was unreadable.  Nevertheless, the idea that these symbols 
  218. are arbitrary is important.  For example, 'chief_priests1' 
  219. may be rendered fairly literally in one language (i.e. 
  220. sacerdotes principales in Spanish), but in another language 
  221. the translation might sound more like 'honored old men who 
  222. 100
  223. perform ceremonial rites'.  The arbitrary forms used to 
  224. represent meanings are called semantic tags in the program. 
  225.  
  226.        Since  the  program  is  attempting  to  translate 
  227. meanings rather than words, it uses an invention called a 
  228. semanticon (see Appendix D) rather than a lexicon.  Here is 
  229. what an entry in the semanticon looks like:
  230.  
  231. .M:1
  232.                               |---- Morphological Tag
  233.                               |
  234.                               |     |----- Target 
  235.                               |     |      Language
  236.      Semantic Tag -----|      |     |      Sense
  237.                        |      |     |
  238.                     'feast1' 'n' 'la fiesta'    
  239. .M:2
  240.  
  241. Each entry in the semanticon begins with a semantic tag as 
  242. described above.  The next field in each entry is a morpho
  243. logical tag.  A morphological tag is basically a part of 
  244. speech, but it can contain additional information such as 
  245. person, number, gender, tense, and so on.  The morphologi
  246. cal tag refers to the target language rendering of the 
  247. concept represented by the semantic tag.  This target 
  248. language rendering may not strictly match the semantic
  249. tag in the traditional sense.  For instance, sacerdotes 
  250. principales 'priests principal' is not a noun in the 
  251. traditional sense, but a combination of a noun plus an 
  252. adjective.  However, it functions as a single unit, and for 
  253. this reason the conglomerate is treated as a noun in the 
  254. 101
  255. semanticon.  The next field in the semanticon entry is the 
  256. target language rendering of the concept represented by the 
  257. semantic tag.  It generally contains a single target 
  258. language word, but it may contain multiple words connected 
  259. by underscores.  If the morphological tag is 'n' for noun, 
  260. the entry for the target language rendering consists of
  261. an article followed by one or more words connected by 
  262. underscores which loosely represent a noun.  If, in 
  263. Spanish, the morphological tag is one of those for adjec
  264. tives, the entry consists of four words: a masculine and a 
  265. feminine singular adjective and a masculine and a feminine 
  266. plural adjective. 
  267.  
  268.        The source language text to be translated (see 
  269. Appendix C) contains braces.  These braces are used to 
  270. delimit portions of the text which should be translated as 
  271. a unit.  For instance, noun phrases and prepositional 
  272. phrases are surrounded by braces, and the main clause is 
  273. surrounded by braces unless it is the only clause in its 
  274. source line.  The program translates text surrounded by 
  275. braces as units.  For example, if a noun phrase is sur
  276. rounded by braces, the program will never make the article 
  277. of that noun phrase agree with a noun which is outside that 
  278. noun phrase. 
  279.  
  280.  
  281. 102
  282.                      Program Operation
  283. .K:       Program Operation
  284.  
  285.        The program first opens all of its files, and then 
  286. reads the entire semanticon into memory.  (Some experienced 
  287. programmers may cringe at the thought of reading the entire 
  288. semanticon into memory, but memory has become a very 
  289. inexpensive commodity, and its copious use greatly accel
  290. erates program execution.)  Next, a sentence of untrans
  291. lated source text is read into memory, and the sentence is 
  292. placed into an ICON list structure.  Each element of this 
  293. list structure represents one concept (i.e. word or words) 
  294. from the source sentence.  (A description of list struc
  295. tures is outside the scope of this thesis, but use of this 
  296. structure greatly reduces the programming burden that would 
  297. result if sentences were represented as strings.)  Next, 
  298. each concept is referenced in the semanticon, and the 
  299. information obtained from the semanticon is added to the 
  300. list. 
  301.  
  302.        At this point the structure which the program has 
  303. created is analogous to a sentence in the source language 
  304. with target language glosses beneath each word.  The 
  305. program next segments the text based on the position of 
  306. braces within the text.  When a segment of text is located 
  307. which contains no further sub-segments (delimited by 
  308. braces) that segment is translated.  Translation involves a 
  309. 103
  310. number of processes including adjustments to word order, 
  311. word agreement, capitalization, punctuation, and phonology.  
  312. When all the segments of a line of text have been trans
  313. lated, they are assembled into a string, and written to the 
  314. output file.  This process is repeated until all the input 
  315. text has been translated. 
  316.  
  317.  
  318.                           Critique
  319. .K:       Critique
  320.  
  321.        From the discussion above it can be discerned that 
  322. the program translates one sentence at a time.  Thus it 
  323. might seem that all discourse considerations (i.e. rela
  324. tionships between units larger than a sentence) have been 
  325. ignored.  However, this is not the case.  It is true that 
  326. because of the great similarity between the languages and 
  327. cultures of English and Spanish speakers, the differences 
  328. in  discourse  structure  between  the  two  languages  is 
  329. minimal.  Nevertheless, it can be  argued  that  discourse 
  330. considerations have not been completely ignored because the 
  331. analysis  performed  on  the  text  prior  to  translation 
  332. produced sentence adverbs and conjunctions that are used in 
  333. a stylized (i.e. consistent) manner.  Thus the relationship 
  334. of any clause introduced by one of these sentence adverbs 
  335. or conjunctions to the preceding discourse should come 
  336. through clearly in the translation.  
  337.  
  338. 104
  339.        On the other hand, there will be problems using this 
  340. approach with languages which employ an oral style of story 
  341. telling in which certain information is repeated several 
  342. times.  I am inclined to solve this problem by making 
  343. adaptations to the source text rather than to the program
  344. because the majority of the world's languages will not 
  345. require this accommodation, and the ones which do will 
  346. undoubtedly differ in their requirements. 
  347.  
  348.        Another discourse consideration which deserves 
  349. attention is that of pronominal reference.  An example of 
  350. the problem is, 'The disciples prepared the passover meal. 
  351. Later they ate it.'  When rendering the second sentence 
  352. into Spanish the translation of it would need to be 
  353. feminine 'la' to make it agree in gender with the trans
  354. lation of the word for meal 'comida'.  However, in another 
  355. language the word for meal might be masculine or neuter in 
  356. gender. 
  357.  
  358.        In the current version of the translation program 
  359. this issue has been deliberately ignored, but only because 
  360. the current version of the program is intended primarily to 
  361. prove the feasibility of translating fixed texts into 
  362. multiple languages by means of a computer program.  Dealing 
  363. with the problem of participant reference increases the 
  364. size and complexity of not only the program but the source 
  365. 105
  366. text as well.  This would make the program harder to 
  367. understand, and the source text harder to read.  Pronominal 
  368. reference will be dealt with in the next version of the 
  369. program.
  370.  
  371.        The next version of the program will also employ 
  372. markers in the source text for semantic roles like agent 
  373. and patient.  This will make it possible to translate into 
  374. languages that are ergative-absolutive.  Such languages use 
  375. coding schemes which are entirely different from English.  
  376. For instance, in English the agent of any active sentence 
  377. is normally coded, at the surface level, in the nominative 
  378. (i.e. subject) case.  However, in an ergative-absolutive 
  379. language the agent may be realized in the ergative case at 
  380. the surface level if it is the subject of a transitive 
  381. verb, but it may be realized in the absolutive case if it 
  382. is the subject of an intransitive verb (one which doesn't 
  383. take an object). 
  384.  
  385.  
  386.              Implementing A New Target Language
  387. .K:       Implementing A New Target Language
  388.  
  389.        To make the program translate into some other 
  390. language such as French, it would first be necessary to 
  391. change the semanticon to contain French renderings for the 
  392. semantic tags.  (The semanticon can be changed with a text 
  393. 106
  394. editor.)  Note that French requires explicit subject 
  395. pronouns.  For instance, the entry for 'know6' would need 
  396. to contain two words meaning 'they know' rather than the 
  397. single Spanish word saben.  
  398.  
  399.        Also, for some languages (not necessarily for 
  400. French) it may be necessary that some concepts be expressed 
  401. more specifically than is required in English.  For 
  402. instance, it may not be possible to simply talk about a 
  403. 'brother'.  It may be necessary to specify 'older brother' 
  404. or 'younger brother'.  In such situations it will be 
  405. necessary to edit the source text to include semantic tags 
  406. ('brother1' and 'brother2') which specify the more specific 
  407. concepts.  Fortunately, this does not render the enhanced 
  408. source text unusable for languages which do not require 
  409. this additional information.  In such cases semantic tags 
  410. like 'brother1' and 'brother2' can simply be translated 
  411. into the target language equivalent of 'brother'. 
  412.  
  413. After this is done, it would still be necessary to make 
  414. some program modifications, but they should not be too 
  415. formidable for a closely related language like French.  
  416. First of all, the program has some global variables 
  417. containing Spanish articles.  These would need to be 
  418. changed to contain their French counterparts, but it would 
  419. probably not be necessary to change the identifier names of 
  420. 107
  421. these global variables.  Second, it would be necessary to 
  422. modify the procedure contract(), because the rules for 
  423. contraction are  different  in  French.   Likewise,  the  
  424. procedure phono_adj() which makes phonological adjustments 
  425. (like 'a house' but 'an hour') would have to be modified to 
  426. follow French rules.  Finally, the procedures which correct 
  427. word order (order() and the procedures it calls) would also 
  428. need to be modified to accommodate French word order.  None 
  429. of the required modifications should be very time consuming 
  430. since the entire program was written for Spanish in just 
  431. fifteen days. 
  432.  
  433.  
  434.                          Conclusion
  435. .K:       Conclusion
  436.  
  437.      I have attempted to show some of the theoretical basis 
  438. for producing machine translations, and to demonstrate the 
  439. feasibility of translating fixed texts into multiple target 
  440. languages using a computer program as a translation aid.  I 
  441. have demonstrated, via the translated text in Appendix E, 
  442. that such fixed texts can be translated with a high degree 
  443. of quality if the source text is adequately pre-analyzed.  
  444. I have also asserted that the pre-analysis can be performed 
  445. by persons who are native speakers of only the source 
  446. language (i.e. English), and who may have no knowledge  of  
  447. any  of  the  intended  target  languages.  Likewise, I 
  448. 108
  449. have contended that any required post-editing can be done 
  450. by persons who are fluent in only the target language, and 
  451. the role of any bilingual specialists could be limited to 
  452. that of consultants and translation checkers.  Considering 
  453. all of these points, it should be possible to produce 
  454. translations of fixed texts into multiple languages using a 
  455. machine translation program as a translation aid and to do 
  456. so more quickly, more consistently, and at a lower cost 
  457. than by traditional methods.
  458.